科学和工程的许多领域都涉及随着时间的推移做出一系列决策,以前的决策以不确定的方式影响未来。中心挑战是选择一项决策政策,该政策在更长的时间内导致理想的结果。例如,在治疗诸如糖尿病等慢性疾病[42]时,临床医生可以根据患者的病史从一系列治疗中进行选择,并且任何此类政策在将来对患者的状态产生不确定的影响。在一个相当不同的领域中,核融合系统的Tokamak系统的设计需要学习血浆控制和塑形的政策[7];这里的动作或决策是通过磁性耦合到等离子体的线圈进行的。其他应用程序包括企业的库存和定价系统[15];机器人技术和自动驾驶中的导航系统[37,24];野火预防和管理的资源部署[1];以及对工业过程的优化和控制[35]。马尔可夫决策过程提供了一个灵活的框架来描述此类序列问题,并加强学习(RL)是指估计策略的一类广泛的数据驱动方法。某些应用程序是数据丰富的,这意味着从基础过程中收集状态,行动和奖励的样本相对便宜。当访问大型样本量时,RL方法已被证明是非常成功的,在竞争性游戏中特别重要的例子(例如,Alphago及其扩展[34])。但是,许多应用程序的样本量更大,有时称为“小数据”设置,这使得RL的部署更具挑战性。例如,在医疗保健应用中,有限的数据可用于某些类型的疾病或某些类型的患者[42]。同样,对于财务组合优化(例如[31]),由于缺乏历史或基础,有效数据尺寸通常非常有限
主要关键词